我们将2D盲点估计作为道路场景理解的关键视觉任务。通过自动检测从车辆有利位置阻塞的道路区域,我们可以主动提醒手动驾驶员或自动驾驶系统,以实现事故的潜在原因(例如,引起人们对孩子可能逃脱的道路区域的注意)。在完整3D中检测盲点将是具有挑战性的,因为即使汽车配备了LIDAR,3D推理也会非常昂贵且容易发生。相反,我们建议从单眼相机中学习估计2D中的盲点。我们通过两个步骤实现这一目标。我们首先引入了一种自动方法,用于通过利用单眼深度估计,语义细分和SLAM来生成``地面真相''盲点训练数据,以进行任意驾驶视频。关键的想法是在3D中推理,但要从2D图像定义为那些目前看不见但在不久的将来看到的道路区域。我们使用此自动离线盲点估计来构建一个大规模数据集,我们称之为道路盲点(RBS)数据集。接下来,我们介绍BlindSpotnet(BSN),这是一个简单的网络,该网络完全利用此数据集,以完全自动估算框架盲点概率图,以用于任意驾驶视频。广泛的实验结果证明了我们的RBS数据集的有效性和BSN的有效性。
translated by 谷歌翻译
Vision-based tactile sensors have gained extensive attention in the robotics community. The sensors are highly expected to be capable of extracting contact information i.e. haptic information during in-hand manipulation. This nature of tactile sensors makes them a perfect match for haptic feedback applications. In this paper, we propose a contact force estimation method using the vision-based tactile sensor DIGIT, and apply it to a position-force teleoperation architecture for force feedback. The force estimation is done by building a depth map for DIGIT gel surface deformation measurement and applying a regression algorithm on estimated depth data and ground truth force data to get the depth-force relationship. The experiment is performed by constructing a grasping force feedback system with a haptic device as a leader robot and a parallel robot gripper as a follower robot, where the DIGIT sensor is attached to the tip of the robot gripper to estimate the contact force. The preliminary results show the capability of using the low-cost vision-based sensor for force feedback applications.
translated by 谷歌翻译
Color is a critical design factor for web pages, affecting important factors such as viewer emotions and the overall trust and satisfaction of a website. Effective coloring requires design knowledge and expertise, but if this process could be automated through data-driven modeling, efficient exploration and alternative workflows would be possible. However, this direction remains underexplored due to the lack of a formalization of the web page colorization problem, datasets, and evaluation protocols. In this work, we propose a new dataset consisting of e-commerce mobile web pages in a tractable format, which are created by simplifying the pages and extracting canonical color styles with a common web browser. The web page colorization problem is then formalized as a task of estimating plausible color styles for a given web page content with a given hierarchical structure of the elements. We present several Transformer-based methods that are adapted to this task by prepending structural message passing to capture hierarchical relationships between elements. Experimental results, including a quantitative evaluation designed for this task, demonstrate the advantages of our methods over statistical and image colorization methods. The code is available at https://github.com/CyberAgentAILab/webcolor.
translated by 谷歌翻译
Variational autoencoders (VAEs) are powerful tools for learning latent representations of data used in a wide range of applications. In practice, VAEs usually require multiple training rounds to choose the amount of information the latent variable should retain. This trade-off between the reconstruction error (distortion) and the KL divergence (rate) is typically parameterized by a hyperparameter $\beta$. In this paper, we introduce Multi-Rate VAE (MR-VAE), a computationally efficient framework for learning optimal parameters corresponding to various $\beta$ in a single training run. The key idea is to explicitly formulate a response function that maps $\beta$ to the optimal parameters using hypernetworks. MR-VAEs construct a compact response hypernetwork where the pre-activations are conditionally gated based on $\beta$. We justify the proposed architecture by analyzing linear VAEs and showing that it can represent response functions exactly for linear VAEs. With the learned hypernetwork, MR-VAEs can construct the rate-distortion curve without additional training and can be deployed with significantly less hyperparameter tuning. Empirically, our approach is competitive and often exceeds the performance of multiple $\beta$-VAEs training with minimal computation and memory overheads.
translated by 谷歌翻译
点播(DOD)喷墨打印被认为是制造高级功能材料的有前途的技术之一。对于DOD打印机,长期用于实现无卫星较小液滴的高精度分配技术,长期以来一直在构图薄膜结构。本研究认为,分配喷嘴上游的液体室的入口速度是控制变量,旨在使用样品效率高的贝叶斯优化算法优化其波形。首先,液滴分配动力学是通过使用开源OpenFOAM求解器,InterFOAM进行数值复制的,并且结果将传递给基于Pyfoam的另一个代码。然后,表征驱动DOD打印机的参数由贝叶斯优化(BO)算法确定,以最大化规定的多目标函数,该函数表示为两个因素的总和,即主液滴的大小和主要液滴的大小和卫星液滴的存在。结果表明,当前的BO算法可以在150个模拟中成功找到高精度分配波形。具体而言,可以有效消除卫星液滴,并通过施加最佳波形,可以将液滴直径显着降低至喷嘴直径的24.9%。
translated by 谷歌翻译
预计到2023年,物联网设备的数量将达到1,250亿。物联网设备的增长将加剧设备之间的碰撞,从而降低通信性能。选择适当的传输参数,例如通道和扩展因子(SF),可以有效地减少远程(LORA)设备之间的碰撞。但是,当前文献中提出的大多数方案在具有有限的计算复杂性和内存的物联网设备上都不容易实现。为了解决此问题,我们提出了一种轻巧的传输参数选择方案,即使用用于低功率大区域网络(Lorawan)的增强学习的联合通道和SF选择方案。在拟议的方案中,可以仅使用确认(ACK)信息来选择适当的传输参数。此外,我们从理论上分析了我们提出的方案的计算复杂性和记忆要求,该方案验证了我们所提出的方案可以选择具有极低计算复杂性和内存要求的传输参数。此外,在现实世界中的洛拉设备上实施了大量实验,以评估我们提出的计划的有效性。实验结果证明了以下主要现象。 (1)与其他轻型传输参数选择方案相比,我们在Lorawan中提出的方案可以有效避免Lora设备之间的碰撞,而与可用通道的变化无关。 (2)可以通过选择访问通道和使用SFS而不是仅选择访问渠道来提高帧成功率(FSR)。 (3)由于相邻通道之间存在干扰,因此可以通过增加相邻可用通道的间隔来改善FSR和公平性。
translated by 谷歌翻译
重复是一种反应,可以在对话中重复上一位演讲者的话语中的单词。如语言研究所述,重复对于与他人建立信任至关重要。在这项工作中,我们专注于重复生成。据我们所知,这是解决重复产生的第一种神经方法。我们提出了加权标签平滑,一种平滑方法,用于明确学习在微调过程中重复哪些单词,以及一种重复评分方法,可以在解码过程中输出更合适的重复。我们进行了自动和人类评估,涉及将这些方法应用于预先训练的语言模型T5来产生重复。实验结果表明,我们的方法在两种评估中都超过了基线。
translated by 谷歌翻译
最近对具有正式隐私保证的分布式计算的研究,例如联合学习的差异私有(DP),利用每回合中客户的随机抽样(通过亚采样进行的隐私放大)来达到令人满意的隐私水平。然而,实现这一目标需要强大的假设,这些假设可能无法实践,包括对客户的精确和统一的亚采样,以及高度信任的聚合器来处理客户的数据。在本文中,我们探讨了一个更实用的协议,改组了办理登机手续,以解决上述问题。该协议依靠客户端做出独立和随机的决定来参与计算,释放服务器发射的亚采样要求,并启用客户端辍学的强大建模。此外,采用了称为洗牌模型的较弱的信任模型,而不是使用受信任的聚合器。为此,我们介绍了新工具来表征洗牌的r \'enyi差异隐私(RDP)。我们表明,我们的新技术在隐私保证中至少提高了三次,而在各种参数制度下使用近似DP的强大组成的人进行了三倍。此外,我们提供了一种数值方法来跟踪通用洗牌机构的隐私,包括具有高斯机制的分布式随机梯度下降(SGD)。据我们所知,这也是文献中分布式设置下本地/洗牌模型中高斯机制的首次评估,这可能具有独立的兴趣。
translated by 谷歌翻译
已经对光子加速器进行了深入的研究,以提供增强的信息处理能力,从而受益于物理过程的独特属性。最近,据报道,从激光器(Laser Chaos)的混沌振荡超快时间序列提供了解决多臂匪徒(MAB)问题或决策问题的能力。此外,已经证实,激光混乱的负相关时间域结构有助于加速决策。但是,为什么相关时间序列加速决策的基本机制尚不清楚。在这项研究中,我们展示了一个理论模型,以说明相关时间序列加速决策的理论模型。我们首先证实了使用傅立叶变换替代方法来解决两臂匪徒问题的固有时间序列的负自相关的有效性。我们提出了一个理论模型,该模型涉及遵守决策系统和系统内部状态的相关时间序列,并受到相关的随机步行的启发。我们证明,该理论分析得出的性能与数值模拟非常吻合,该模拟证实了所提出的模型的有效性并导致最佳系统设计。本研究为提高相关时间序列的有效性铺平了道路,从而影响人工智能和其他应用。
translated by 谷歌翻译
基于变化的AutoEncoder的语音转换(VAE-VC)具有仅需要对培训的发言和扬声器标签的优势。与VAE-VC中的大部分研究不同,专注于利用辅助损失或离散变量,研究了如何增加模型表达式对VAE-VC的益处和影响。具体而言,我们首先将VAE-VC分析到速率 - 失真的角度,并指出模型表达性对于VAE-VC来说意义重大,因为速率和失真反映了转化的演示的相似性和自然度。基于分析,我们提出了一种使用深层等级vae的新型VC方法,具有高模型表达性,并且由于其非自动增加的解码器而具有快速转换速度。此外,我们的分析揭示了另一个问题,当VAE的潜变量具有冗余信息时,相似性可以降级。通过使用$ \ beta $ -vae目标控制潜在变量中包含的信息来解决问题。在使用VCTK Corpus的实验中,所提出的方法在性别间环境中的自然和相似性上实现了高于3.5的平均意见分数,其高于现有的基于AutoEncoder的VC方法的分数。
translated by 谷歌翻译